【レポート】データ分析におけるデータサイロ、機械学習モデル管理、 BIの制限 − これらの課題を解決します! #PAR-25 #AWSSummit
この記事では、5月11日に行われた AWS Summit Online 2021 のオンラインセッション『データ分析におけるデータサイロ、機械学習モデル管理、 BIの制限 − これらの課題を解決します!(PAR-25)』の模様をレポートします。
セッション概要
データ分析に悪戦苦闘されている皆様、分析環境の構築に時間を要していませんか? 大量データに対するデータパイプラインの構築に苦慮していませんか? BI の際にデータのコピーを作成してデータの整合性が損なわれていませんか? 分析データを理解し適切な機械学習モデルを構築するデータサイエンティスト、データパイプラインを構築し質の高いデータを提供するデータエンジニア、集約・分析されたデータからビジネス示唆を抽出するデータアナリスト、データ分析に携わる皆様が抱える課題の解決法を、顧客事例を含め説明いたします!
登壇者
データブリックス・ジャパン株式会社 フィールドエンジニアリング ソリューションアーキテクト 弥生 隆明 氏
レポート
Agenda
- 会社概要
- AI/機械学習プロジェクトにおける課題
- レイクハウスプラットフォーム
- 導入事例
databricksとは
- Apache Sparkの生みの親であるマテイ・ザハリアと共に、アリ・ゴディシが2013年に設立した企業
- MLflow、DELTA LAKE、Coalas、Pandasなどのデータ分析や機械学習に携わる人ならお世話になっている製品を開発
データ分析における課題
データ分析プロジェクトを立ち上げる際によくある課題 - データを保存している場所がバラバラ - 常に増加し続けるデータ量、それに対して追いつかない処理、増えるインフラコスト - データを持つ様々なチームや部署との効率的な連携が難しい - データ分析基盤の柔軟性とオープン性の担保
データエンジニアの悩み
- データ加工(ETL、ELTなど)に時間がかかる
- 構築したデータレイクが無秩序な状態になってしまう
- どこに何のデータが格納しているのか管理しきれなくなる
- Hadoopなどのビッグデータ処理基盤の運用コストが増大
- データサイエンティストが個別にAIモデルを持っており、ブラックボックス化している
- AIモデルを管理するための仕組みがない
データサイエンティストの悩み
- 分析データの格納場所が散在している
- 構造化データ以外に、画像などの非構造化データも分析していきたい
- 分析環境構築に時間を要する
- 分析のロジックをレビューしてもらいたいが、リモートワーク環境でのコミュニケーションが困難
- AIモデルのチューニングを繰り返していったら、どれがベストモデルかわからなくなった
- ベストモデルのデプロイ時に人為的な作業ミスが起こりがち
ビジネスアナリストの悩み
- 分析データの格納場所が散在している
- 全てのデータから示唆を抽出したいが、機能面、性能面での制約からサンプルデータに頼らざるを得ない
レイクハウスプラットフォーム
- データレイク、分析、AIに関わるシステムを統合するプラットフォーム
-
データエンジニアの課題を解決
- Sparkの並列分散処理により高速なデータ処理・データ分析
- Delta LakeとSparkを活用することで、高信頼、高性能なデータパイプラインを実現
- データサイエンティストの課題を解決
- 様々な機能を持つ「サイエンスワークスペース」
- データエンジニア、データサイエンティスト、ビジネスアナリストが1つの環境でコラボレーション可能(共同で参照/編集、バージョニング)
- MLflowによるAIモデルの一元管理の実現
- ビジネスアナリストの課題を解決
- データレイク上の全てのデータによる可視化、SQLでの分析が可能
- Delta LakeとSparkを活用することで、高信頼、高性能なデータパイプラインを実現
アーキテクチャ
導入事例
所感
データ分析基盤の設計を学ぶ上で、各チームとエンジニアの抱える課題とその解決にはどのようなソリューションが必要なのかを知ることができますね。
またdatabricksのアーキテクチャは、AWSでデータレイク、アナリティクスを実現する基盤としてお手本に近い構成となっているので、それを学ぶにも良いセッションだと思いました。
Databricks無償トライアル:https://databricks.com/try-databricks